We propose a new neural network design paradigm Reversible Column Network (RevCol). The main body of RevCol is composed of multiple copies of subnetworks, named columns respectively, between which multi-level reversible connections are employed. Such architectural scheme attributes RevCol very different behavior from conventional networks: during forward propagation, features in RevCol are learned to be gradually disentangled when passing through each column, whose total information is maintained rather than compressed or discarded as other network does. Our experiments suggest that CNN-style RevCol models can achieve very competitive performances on multiple computer vision tasks such as image classification, object detection and semantic segmentation, especially with large parameter budget and large dataset. For example, after ImageNet-22K pre-training, RevCol-XL obtains 88.2% ImageNet-1K accuracy. Given more pre-training data, our largest model RevCol-H reaches 90.0% on ImageNet-1K, 63.8% APbox on COCO detection minival set, 61.0% mIoU on ADE20k segmentation. To our knowledge, it is the best COCO detection and ADE20k segmentation result among pure (static) CNN models. Moreover, as a general macro architecture fashion, RevCol can also be introduced into transformers or other neural networks, which is demonstrated to improve the performances in both computer vision and NLP tasks. We release code and models at https://github.com/megvii-research/RevCol
translated by 谷歌翻译
Occupancy information is useful for efficient energy management in the building sector. The massive high-resolution electrical power consumption data collected by smart meters in the advanced metering infrastructure (AMI) network make it possible to infer buildings' occupancy status in a non-intrusive way. In this paper, we propose a deep leaning model called ABODE-Net which employs a novel Parallel Attention (PA) block for building occupancy detection using smart meter data. The PA block combines the temporal, variable, and channel attention modules in a parallel way to signify important features for occupancy detection. We adopt two smart meter datasets widely used for building occupancy detection in our performance evaluation. A set of state-of-the-art shallow machine learning and deep learning models are included for performance comparison. The results show that ABODE-Net significantly outperforms other models in all experimental cases, which proves its validity as a solution for non-intrusive building occupancy detection.
translated by 谷歌翻译
语言的演变遵循逐渐变化的规则。语法,词汇和词汇语义转移会随着时间的推移而发生,导致了直觉的语言差距。因此,用不同的时代语言编写了大量文本,这为自然语言处理任务(例如单词分割和机器翻译)造成了障碍。尽管中文历史悠久,但以前的中国自然语言处理研究主要集中在特定时代的任务上。因此,我们为中文单词分割(CWS)提出了一个跨时代的学习框架,该框架使用开关记忆(SM)模块来合并ERA特定的语言知识。来自不同时代的四个语料库的实验表明,每个语料库的性能都显着提高。进一步的分析还表明,SM可以有效地将时代的知识整合到神经网络中。
translated by 谷歌翻译
尽管配备的远景和语言预处理(VLP)在过去两年中取得了显着的进展,但它遭受了重大缺点:VLP型号不断增加的尺寸限制了其部署到现实世界的搜索场景(高潜伏期是不可接受的)。为了减轻此问题,我们提出了一种新颖的插件动态对比度蒸馏(DCD)框架,以压缩ITR任务的大型VLP模型。从技术上讲,我们面临以下两个挑战:1)由于GPU内存有限,在处理交叉模式融合功能期间优化了太多的负样本,因此很难直接应用于跨模式任务,因此很难直接应用于跨模式任务。 。 2)从不同的硬样品中静态优化学生网络的效率效率低下,这些样本对蒸馏学习和学生网络优化具有不同的影响。我们试图从两点克服这些挑战。首先,为了实现多模式对比度学习并平衡培训成本和效果,我们建议使用教师网络估算学生的困难样本,使学生吸收了预培训的老师的强大知识,并掌握知识来自硬样品。其次,要从硬样品对学习动态,我们提出动态蒸馏以动态学习不同困难的样本,从更好地平衡知识和学生的自学能力的困难的角度。我们成功地将我们提出的DCD策略应用于两个最先进的视觉语言预处理模型,即vilt和仪表。关于MS-Coco和FlickR30K基准测试的广泛实验显示了我们DCD框架的有效性和效率。令人鼓舞的是,与现有的ITR型号相比,我们可以至少加快推断至少129美元的$ \ times $。
translated by 谷歌翻译
嘈杂的中间尺度量子(NISQ)设备可以实现量子神经网络(QNN)的变异量子电路(VQC)。尽管基于VQC的QNN在许多机器学习任务中都取得了成功,但VQC的表示和泛化能力仍然需要进一步研究,尤其是在涉及经典输入的维度降低时。在这项工作中,我们首先提出了一个端到端量子神经网络,即TTN-VQC,该网络由基于张量训练网络(TTN)组成,用于降低维数和用于功能性回归的VQC。 。然后,我们旨在根据表示和泛化能力的TTN-VQC的错误性能分析。我们还通过利用polyak-lojasiewicz(PL)条件来表征TTN-VQC的优化属性。此外,我们在手写数字分类数据集上进行了功能回归的实验,以证明我们的理论分析是合理的。
translated by 谷歌翻译
图像DeBlurring旨在恢复模糊图像中的详细纹理信息或结构,这已成为许多计算机视觉任务中必不可少的一步。尽管已经提出了各种方法来处理图像去除问题,但大多数方法将模糊图像视为一个整体,并忽略了不同图像频率的特征。在本文中,我们提出了一种新方法,称为图像脱毛的多尺度频率分离网络(MSFS-NET)。 MSFS-NET将频率分离模块(FSM)引入编码器 - 模块网络体系结构中,以在多个尺度上捕获图像的低频和高频信息。然后,分别设计了一个循环一致性策略和对比度学习模块(CLM),以保留低频信息,并在Deblurring期间恢复高频信息。最后,不同量表的特征是通过跨尺度特征融合模块(CSFFM)融合的。基准数据集的广泛实验表明,所提出的网络可实现最先进的性能。
translated by 谷歌翻译
像素合成是图像生成的有前途的研究范式,可以很好地利用像素的先验知识来生成。但是,现有方法仍然遭受过多的内存足迹和计算开销。在本文中,我们提出了一个渐进的像素合成网络,用于有效的图像生成,以像素型构成。具体而言,PixelFolder将图像生成作为渐进的像素回归问题制定,并通过多阶段结构合成图像,这可以大大减少由大型张量转换引起的开销。此外,我们引入了新型的像素折叠操作,以进一步提高模型效率,同时保持像素的先验知识以进行端到端回归。通过这些创新的设计,我们大大减少了像素合成的支出,例如,与最新的像素合成方法CIPS相比,减少了89%的计算和53%的参数。为了验证我们的方法,我们在两个基准数据集(即FFHQ和LSUN教堂)上进行了广泛的实验。实验结果表明,PixelFolder的支出要少得多,在两个基准数据集上获得了新的最先进(SOTA)性能,即3.77 FID和2.45 FID在FFHQ和LSUN教堂上。比SOTA方法效率高,例如stylegan2,分别降低了约72%的计算和31%的参数。这些结果极大地验证了所提出的像素的有效性。
translated by 谷歌翻译
本文旨在通过分析图像文本检索模型的可重复性来为信息检索社区提供对检索学习最新进展的一些思考。由于过去十年中多模式数据的增加,图像文本检索已稳步成为信息检索领域的主要研究方向。许多研究人员使用MS-Coco和FlickR30K等基准数据集训练和评估图像文本检索算法。过去的研究主要集中在绩效上,以多种方式提出了多种最先进的方法。根据他们的断言,这些技术提供了改进的模态相互作用,从而更精确的多模式表示。与以前的作品相反,我们着重于方法的可重复性以及对元素的检查,这些元素通过验证的图像和文本在检索图像和文本时通过预验证和未经预处理的模型提高了性能。更具体地说,我们首先研究了相关的可重复性问题,并解释了为什么我们的重点是图像文本检索任务。其次,我们系统地总结了图像文本检索模型的当前范式以及这些方法的既定贡献。第三,我们分析了预审预测和未进行检索模型的复制的各个方面。为了完成这项工作,我们进行了消融实验,并获得了一些影响检索召回的因素,而不是原始论文中所主张的改进。最后,我们提出了未来检索社区应考虑的一些思考和挑战。我们的源代码可在https://github.com/wangfei-2019/image-text-retrieval上公开获得。
translated by 谷歌翻译
自然图像消光是一个基本和挑战的计算机视觉任务。传统上,该问题被制定为欠暗的问题。由于问题均不含糊,因此需要对数据分布的进一步假设使得摆动良好的问题。对于古典消光方法,通常采用的假设是前景和背景颜色的局部平滑度。然而,对于基于深度学习的焊接方法,没有系统地考虑使用这种假设。在这项工作中,我们考虑了两个局部平滑度假设,可以帮助改善深层图像消光模型。基于本地平滑度假设,我们提出了三种技术,即培训集细化,颜色增强和反向化改进,可以显着提高深度图像消光模型的性能。我们进行实验以检查所提出的算法的有效性。实验结果表明,与现有的消光方法相比,该方法具有良好的性能。
translated by 谷歌翻译
我们提出了一种小说的无参考质量评估度量,图像转移点云质量评估(IT-PCQA),用于3D点云。对于质量评估,深度神经网络(DNN)在无参考度量设计上显示了令人信服的性能。但是,无引用PCQA最具挑战性的问题是我们缺乏大规模的主观数据库来驱动强大的网络。我们的动机是人类视觉系统(HVS)是决策者,无论质量评估的媒体类型如何。利用自然图像的丰富主观评分,我们可以通过DNN探讨人类感知的评估标准,并将预测的能力转移到3D点云。特别是,我们将自然图像视为源域和点云作为目标域,并通过无监督的对抗域适应推断云质量。为了提取有效的潜在特征并最小化域差异,我们提出了分层特征编码器和条件鉴别网络。考虑到最终目的是回归客观评分,我们在条件鉴别网络中引入了一种新的条件跨熵损失,以惩罚阻碍质量回归网络的收敛的负样本。实验结果表明,该方法可以实现比传统的无参考度量更高的性能,甚至与全引用度量的相当结果。该方法还表明,在没有昂贵和繁琐的主观评估的情况下评估特定媒体内容质量的可行性。
translated by 谷歌翻译